#Claude Code
撕開Claude Code真相:讓它好用的98.4%,是工程不是AI
當普通人還在鑽研「最強提示詞咒語」時,矽谷頂級實驗室已經把AI基建跑成了生產線。你還在ChatGPT的聊天框裡反覆調prompt?最近,一位X使用者發了條推文,開頭就是一個驚呼:頭部大廠偷偷在用的Claude Code項目範本外洩!這已經不是寫提示詞了。這是AI工程基礎設施。整套打法圍繞一個檔案「CLAUDE.md」展開,而它的核心原則只有三條:每次Claude犯錯→你加一條規則;每次你重複自己→你加一個工作流;每次出bug→你加一道護欄。這樣做,是要把項目經驗沉澱成它每次啟動都會讀取的長期上下文和自動化約束。整個架構,像是一家AI公司的崗位編制:CLAUDE.md是入職手冊,skills/是工作SOP,hooks/是合規部,docs/是公司章程,tools/是後勤組,src/才是真正出活的業務部門。你不再是在和AI聊天了,而是在建構一個瞭解你程式碼倉庫的AI。最瘋狂的部分是,你只需要配置一次,Claude就會自動審查程式碼,並按指令重構、強制執行架構規則、撰寫發佈說明、從技能中運行工作流、記住過去錯誤等。而且它會越用越聰明。大多數人,都是打開ChatGPT,寫提示詞,複製貼上,反覆;而在這套打法下,你只需要打開終端,跑一個skill程式碼已交付。這等於是在自己的程式碼庫裡養了一隊AI同事。這條推文背後,傳遞的是這個時代正在悄悄翻篇的一個小訊號,大多數人可能還沒反應過來。一張不算洩露的「洩露截圖」撕開一個真相@ai_rohitt曬出來的這張截圖,是Anthropic官方文件裡公開推薦的Claude Code標準範式。CLAUDE.md是Claude Code在每次會話開始時自動讀取的項目記憶檔案。.claude/skills/和.claude/hooks/是官方支援的擴展機制。這些都是社區已經討論了幾個月的公開做法,並不是什麼人偷出來的「內部範本」。但它之所以能讓一些資深開發者主動轉發,說明它得到了一些天天用Claude的開發者們的認同。其中相當一部分人,可能這兩天才意識到原來它還能這麼用。而矽谷頂級團隊,已經把這件事跑成了生產線。第一個例子,是OpenAI Frontier團隊。OpenAI官方披露的Frontier團隊實驗中,一個從空repo起步的內部beta,在約5個月內由Codex生成了約100萬行程式碼和約1500個PR;團隊從3人擴展到7人,人工不直接寫程式碼。帶隊的Ryan Lopopolo在後續訪談中進一步提到,這套工作流已經接近「0 人工程式碼、0 人工 review」的極限形態。他認為與其節省token,不如利用模型極高的並行能力和極低的成本來代替人類有限且昂貴的同步注意力。第二個例子,是Stripe內部的自動化程式碼代理系統Minions。Stripe內部的Minions每周生成並推動超過1300個PR合併,這些程式碼從頭到尾由AI生成,但仍經過人工review。這裡還有一對資料:1.6%vs98.4%,它來自Mohamed bin Zayed AI大學VILA-Lab發表的一篇論文。https://arxiv.org/pdf/2604.14228研究者係統性扒了Claude Code v2.1.88版本51.2萬行TypeScript原始碼,給出的結論是:只有1.6%是AI決策邏輯,剩下的98.4%是確定性的工程基礎設施。具體說就是權限閘道器、上下文管理、工具路由、錯誤恢復這四類。這組數字不是說模型只貢獻1.6%的能力,而是說明Claude Code作為產品,大量複雜度不在模型本身,而在權限、上下文、工具路由、恢復機制等確定性工程基礎設施上。@ai_rohitt那張圖裡的CLAUDE.md/skills/hooks結構,就是普通開發者也能搭一套的「入門版基建」,它和OpenAI、Stripe那套生產級架構是同一種範式,只是規模小得多。CLAUDE.md暴露的秘密過去3年,所有人都在問「GPT什麼時候能更聰明」「Claude什麼時候出新版本」。但真正在生產環境跑通AI程式設計的團隊,他們更關心的可能根本不是這個,而是如何讓AI記住自己上次踩過的坑,怎麼讓AI在動手前先看一眼項目的架構約束,怎麼讓AI犯錯的時候自己被工具擋住。CLAUDE.md正是這一切的承載體。Anthropic官方對它的定義只有一句:一個markdown檔案,放在項目根目錄,Claude Code在每次會話開始時自動讀取。https://code.claude.com/docs/en/memory聽上去很簡單,圍繞它展開的那幾層結構,才是它真正厲害的部分。CLAUDE.md是項目大腦。架構決策、命名約定、測試要求、那些反覆踩過的坑,都堆在這裡。它是AI每次啟動時第一眼看到的「員工手冊」。.claude/skills/是可復用工作流。Claude Code的建立者Boris Cherny在社區裡反覆強調一句話:「如果你每天做某件事超過一次,把它變成skill或command。」一個skill就是一段可執行的方法論。Code review、生成commit message、寫發佈說明,這些都不該是每天手敲提示詞的活,應該是skill調一下就出結果。.claude/hooks/是自動護欄。這是最關鍵的部分。它不依賴AI自己判斷,由確定性程式碼在AI犯錯之前就擋住它。這就是為什麼敢讓AI「無人監督」地跑,因為出錯的邊界由hooks卡死了。docs/decisions/是架構決策記錄。讓AI不僅知道程式碼「是什麼」,還知道程式碼「為什麼是這樣」。這一項最容易被忽略,但也是AI協作最大的槓桿點。tools/和src/是執行層。這套架構真正值得注意的地方,不在於某個開發者搞出了一個漂亮目錄,而是越來越多獨立團隊正在收斂到同一個方向:把模型放進一套由上下文、工具、權限、評估和反饋循環組成的harness裡。GitHub上已經能看到不少類似項目:rohitg00的awesome-claude-code-toolkit、diet103的claude-code-infrastructure-showcase、affaan-m的everything-claude-code,都在圍繞agents、skills、hooks、rules、MCP configs等元件搭建Claude Code的工程化工作環境。這說明,真正成熟的AI程式設計工作流,不是只靠一個更強的模型,也不是只靠一條更長的prompt,而是把模型嵌入一套可復用、可約束、可恢復、可審計的工程系統裡。至於具體目錄結構,各家實現並不完全相同。OpenAI實驗室的極限實驗2026年2月11日,OpenAI官方部落格發了一篇文章:《Harness engineering: leveraging Codex in an agent-first world》。https://openai.com/index/harness-engineering/Anthropic圍繞這個概念重新調整了Claude Code的架構思路;Martin Fowler的網站把它凝練成一個公式:「Agent=Model+Harness。」Harness這個詞來自馬術。它指的是馬的整套挽具,韁繩、馬嚼子、馬鞍、籠頭。一匹馬可以跑得很快很有力,但它自己不知道往那兒走:整套挽具決定了它的方向。類比到AI程式設計:模型本身能力很強,但它不知道在你的程式碼庫裡該往那兒走。Harness就是你為它造的方向盤+剎車+導航。OpenAI Frontier團隊那個「100萬行0人工」的實驗,本質就是把Harness做到極致。他們的關鍵工程實踐包括以下幾條。層級架構強約束。從Types到Config到Repo到Service到Runtime到UI,依賴關係單向流動,由linter在CI層強制執行。Agent寫出違反層級關係的程式碼?直接建構失敗。linter錯誤資訊本身是修復指令,這也是最反直覺的細節。普通項目的lint錯誤是「violation detected」,給人看的;OpenAI Frontier的lint錯誤是「use logger.info({event: 'name', ...data}) instead of console.log」,給Agent看的、可以直接讀懂並修復的指令。文件作為單一事實來源。所有架構圖、execution plans、設計規範都在倉庫內部的docs/目錄。Agent不需要任何外部知識庫,一切就在repo裡。這套東西效果有多厲害?模型沒有換,但LangChain調整了harness,包括系統提示、工具、中介軟體和推理模式,最終把Terminal Bench 2.0分數從52.8提到66.5。你今天就能做的事是為AI造一個項目大腦問題回到普通開發者這裡:如果範式已經轉移,作為一個普通工程師,今天就能做點什麼。第一件事,在你最重要的項目根目錄建一個CLAUDE.md。不需要完美,也不需要很長。寫下你團隊的架構規則、命名約定、測試要求、那些反覆踩過的坑,10分鐘能寫完一個能用的版本。下次AI犯錯的時候,先不要手動修,而是問自己一句:CLAUDE.md裡缺了什麼?第二件事,把每天重複做的事改造成skill。這裡要注意Boris Cherny的金句:「如果你每天做某件事超過一次,把它變成skill或command。」Code review、生成commit message、寫發佈說明、修一類重複的bug,這些都該是skill,不該是每天手敲提示詞。第三件事,在容易踩坑的地方加一個hook。Hook是98.4%裡最有槓桿的那部分。它不依賴AI變聰明,它依賴確定性程式碼做強制檢查。這是把人類工程師的判斷力翻譯成機器可讀約束的過程。這件事的核心不在寫程式碼,而在寫規則。Karpathy今年1月在推特上的那句被廣泛轉發的話:「我已經從80%手動寫程式碼變成了80%交給Agent寫。」未來五年,工程師的能力曲線正在從「我能寫多少行程式碼」轉向「我能為AI設計多嚴格的工作環境」。寫程式碼的活兒正在被Agent接管。但設計那個讓Agent能寫出好程式碼的世界,還是人的工作。而且比以前更難、更重要、也更有意思。 (新智元)
講真,DeepSeek V4+Claude Code 就是中國最強 Agent
DeepSeek V4(預覽版)終於在四月底來了!眾望所歸啊。去年 V3 發佈之後大家就開始猜 V4 什麼時候出。之所以周期這麼長,原因很簡單——換卡了,V4 的整個訓練框架都切到了昇騰。要知道,DeepSeek 的深度思考模式,絕對是當時的大模型第一梯隊,甚至是引領者。從 V3 到 V4,這一步真不容易(我接觸到不少小夥伴都不抱期待了)。不管怎麼說,總算是來了。不誘於譽,不恐於誹,率道而行,端然正己。V4 端上來了,V4.1 就快了,威武,哦不,V5 肯定要不了這麼久。注意,V4 這次是全量上線,不需要排隊等資格,直接改 API 裡的 model 參數就可以用。Pro 版改成 deepseek-v4-pro,flash 版改成 deepseek-v4-flash,deepseek-chat 和 deepseek-reasoner 到 7 月 24 號就棄用了。定價方面,pro 比較貴,但 flash 一如既往地親民。在沒有 Coding Plan 的情況下,pro 完成一次開發,價格能接受,但略貴。別的廢話我就不多說了,直接開測。咱就不去寫什麼 demo 了,直接把 DeepSeek V4 接入到 Claude Code 中讓他猛猛幹活。01、Claude Code + DeepSeek V4講真,Claude Code+DeepSeek V4 就是國產最強 Agent。切換模型很簡單,我自己寫了個工具 PaiSwitch,銷售點一點,Claude Code 的底層模型就切到了 DeepSeek V4 Pro。切換底層模型後,重新打開一個終端,輸入 /claude 啟動。可以用 /status 確認下配置是否生效。提示詞:派聰明的聊天入口 http://localhost:9527/#/chat 現在是單窗口模式,我想改成多窗口——能開新對話,舊對話直接歸檔。V4 上來先把整個項目的程式碼結構讀了一遍。讀完之後給了一個改造計畫。要新增那些結構、更新什麼類、重構那塊儲存、頁面佈局怎麼調,都列得明明白白。我全程盯著 token 消耗。讀了那麼多程式碼,加上輸出計畫的量,一塊多。然後開始幹活。V4 規劃了五個任務,先攻後端,再弄前端。後端改了 7 個檔案,前端 5 個,前後大概 15 分鐘。編譯直接過了,有錯誤自己也修了。然後我讓它自己用 CDP 連到 Chrome 跑測試。提示詞:你自己能否 cdp 我的 Chrome 測試一下:http://localhost:9527/#/chat點點按鈕,驗證功能。測出問題自己修。修完繼續測歸檔功能。最後我還讓它最佳化了一下佈局。從頭到尾,Pro 一共花了 10 塊左右。能接受。當然了,有一說一,前端審美這塊確實還比較糙。佈局能用但說不上優雅。功能方面是沒出一點問題。一個好的模型,配上 Claude Code 這種頂級 Harness 架構,能幹的事情就很多了。Claude Code之所以牛X,就是因為。它不只是把你的提示詞轉發給模型,還在中間加了任務拆解、檔案讀寫、終端操作、自動糾錯這些能力。所以同一個 Harness 換不同的底層模型,就能直觀地看出模型之間的差距在那。10 塊錢完成一個完整的功能開發,從程式碼到測試到修 bug,這個成本不算貴。但也不便宜,注意上圖中的小子,下半年卡升級後,pro的加個會大幅下調。很期待下一個版本。02、派聰明 RAG 接入 DeepSeek V4由於我們派聰明RAG做了模型管理。所以我第一時間,也是把 Pro 和 Flash 接上去體驗了一下。問了一模一樣的問題:「派聰明是什麼?」Flash 的回答是這樣的:派聰明是一個企業級的 RAG(檢索增強生成)知識庫項目,最初是技術派實戰項目中用於和 AI 大模型聊天對話的部分(不含檢索增強),後來獨立發展並沿用“派聰明”名稱,旨在延續正宗的皇家血脈。Pro 的回答是這樣的:派聰明是一個企業級 RAG(檢索增強生成)知識庫系統,基於企業文件實現精準的智能問答與知識管理。它最初是技術派實戰項目中的 AI 聊天模組(不含檢索增強),後獨立發展並沿用“派聰明”名稱,旨在延續項目的正統性。系統核心能力包括:文件自動解析與分塊、豆包 Embedding 向量化、關鍵詞與語義混合檢索、基於 DeepSeek 模型的生答、Self-RAG 自驗證機制、JWT+RBAC 多租戶權限隔離、SSE 流式推送等。通過全鏈路閉環,它有效解決知識分散與更新滯後問題,避免大模型“幻覺”,可應用於客服、培訓、合規審查等場景。派聰明完全開源(MIT 協議),教學託管在技術派平台,支援企業私有化部署與二次擴展。一個簡略,一個詳細。畢竟 Pro 啟動參數 49B,Flash 只有 13B,差了將近 4 倍。但重點不在誰答得長。RAG 場景裡,檢索質量才是天花板,模型能力決定的是在這個天花板下能發揮幾成。Flash 的回答雖然短,但核心資訊都抓到了——項目來源、名稱由來、定位。Pro 多出來的那些內容(Self-RAG、JWT+RBAC、SSE 流式推送),其實全都是從知識庫裡檢索出來的原始文件內容,它只是組織得更完整。換句話說,如果你的知識庫文件質量高、分塊合理,Flash 完全夠用。03、DeepSeek V4 值得聊的一點傳統 Transformer 的注意力機制,每個 token 要和前面所有 token 都算一遍相似度。上下文能從 10 萬拉到 100 萬,這是長上下文一直跑不起來的根本原因。DeepSeek 的解法是把注意力拆成兩種,交替堆疊起來用。第一種叫 CSA,全名 Compressed Sparse Attention,壓縮稀疏注意力。它的邏輯是先把每 4 個 token 的 KV 快取合併成一條摘要,然後用 Lightning Indexer 快速估算相關性,讓每個 query 只從這些摘要裡挑出最相關的 top-1024 個去算。DeepSeek V4 pro繪圖第二種叫 HCA,全名 Heavily Compressed Attention,重度壓縮注意力。每 128 個 token 才合併成一條,但不做稀疏選擇,所有壓縮後的摘要全部參與計算。HCA 的定位是維持全域視野,保證模型不會丟了對整段文字的把控。再加一個 128 token 的滑動窗口管局部依賴。也就是說,CSA 負責精細化檢索,HCA 負責全域審視,滑動窗口管好眼前。可以這樣理解這個設計:讀一本 1000 頁的書,傳統注意力是把每一頁和前面所有頁都對比一遍,翻到第 1000 頁的時候要同時記住前 999 頁的細節,腦容量直接爆炸。CSA 的做法是把每 4 頁貼一張便簽紙,唯寫摘要,然後看到某一頁時只去翻最相關的 1024 張便簽紙。HCA 的做法更絕——每 128 頁才貼一張便簽紙,但所有便簽紙都看一眼。再加上手裡的那一頁(滑動窗口),局部細節、中程邏輯、全域脈絡都有了,但腦容量得消耗只有原來的十分之一。04、DeepSeek 真的很克制最讓我意外的是 DeepSeek 官方這次的措辭。公告裡是這樣寫的:使用體驗優於 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式,但仍與 Opus 4.6 思考模式存在一定差距。沒有「吊打」,沒有「碾壓」,沒有「遙遙領先」。在充斥著「超越 GPT」「全球最強」「里程碑式突破」的當下,這種「我們確實還差一截」的表態真的很真誠。「不誘於譽,不恐於誹,率道而行,端然正己。」V4 不是一個完美的模型。就我自己的使用體感下來看,前端這塊的處理我認為還是有很大進步空間的。這種實心的線條來佈局,有點回到返璞歸真的。😄下一版不急,按你的節奏來。 (沉默王二)
GPT-5.5 發佈!Claude Code 連夜治好降智,「奧特曼癱倒」喜提續集
據外媒 Business Insider 報導,Anthropic 在私募二級市場的估值已突破 1 兆美元。作為參照,OpenAI 今年 3 月末最新一輪融資的估值,仍停留在 8520 億美元。除了業內老生常談的「AI 泡沫論」,這組對比資料也表明了曾經穩坐頭把交椅的 OpenAI,如今正在直面被追趕、被超越的壓力,但沒有讓我們等待多久,OpenAI 的反擊旋即而至。就在剛剛,GPT-5.5 正式發佈,同步亮相的還有面向更高階任務的 GPT-5.5 Pro 版本。如果用一句話總結 GPT-5.5 的核心設計思路,那就是讓使用者把一團雜亂、多步驟的複雜任務直接拋給模型,由它自主規劃路徑、呼叫工具、校驗結果、消解歧義,並一路推進。看似只是 0.1 的版本號迭代,在推理效率上卻判若大版本更新—— 同樣的 Codex 任務,GPT-5.5 消耗的 token 顯著更少,既更聰明,也更省。吐槽了一個多月,偏偏等到 GPT-5.5 發佈,Anthropic 才想起要解決降智問題GPT-5.5 登場,不講武德的屠榜GPT-5.5 的紙面成績非常可觀。在知名第三方評測機構 Artificial Analysis 的綜合智能指數榜單上,OpenAI 憑藉 GPT-5.5 系列拿下了第一名和第二名,前六席中包攬了四席,競爭對手幾乎毫無招架之力。基準測試結果顯示,在 Terminal-Bench 2.0(測試複雜命令列工作流)上,GPT-5.5 達到 82.7%,GPT-5.4 為 75.1%,Claude Opus 4.7 為 69.4%。在 SWE-Bench Pro(評估真實 GitHub 問題解決能力)上,GPT-5.5 達到 58.6%,能在單次運行中端到端完成更多工,超過 GPT-5.4 的 57.7%。在 OpenAI 內部的 Expert-SWE 評測上,任務的人類預計完成時間中位數為 20 小時,GPT-5.5 達到 73.1%,GPT-5.4 為 68.5%。且在三項評測上,GPT-5.5 均以更少 token 完成任務。只不過,OpenAI 這次也玩起了腳註裡的小心思,用一行小字暗戳戳質疑 Claude Opus 4.7 部分成績的可信度。但網友 Deedy 對此並不買帳,在他看來,這行備註更像是轉移注意力 —— 畢竟 OpenAI 自己也沒能拿出一套更透明的公開基準,正面佐證 GPT-5.5 的實力。在智能體編碼、computer use(電腦使用)、知識工作和早期科學研究等領域,GPT-5.5 的提升尤為顯著。早期測試者反饋,GPT-5.5 在理解大型程式碼庫整體結構方面明顯更強,能主動預判潛在問題,提前考慮測試和審查需求,無需額外提示。知名評測博主、Every 創始人 Dan Shipper 分享了一個具體案例:他的應用上線後出現問題,自己偵錯數天未果,最終請來工程師重寫了部分系統。他用 GPT-5.5 重現這一場景,結果模型給出了與工程師相同的解決思路,而 GPT-5.4 則無能為力。Cursor 聯合創始人 Michael Truell 表示,GPT-5.5 比 GPT-5.4 更聰明、更有韌性,工具呼叫更可靠,面對複雜長期任務時能堅持更久而不中途停下。更誇張的是,一位輝達工程師在早期體驗後直言:「失去 GPT-5.5 的存取權,感覺就像是我的肢體被截肢了一樣。」如無意外,又一個名梗的誕生(哈??)不過,考慮到奧特曼看完 GPT-5 演示之後,直接「眩暈無力、癱倒在地」,而且這件事到今天也沒有一個正經解釋,輝達工程師這句話,好像也沒那麼誇張了。而在知識工作場景,GPT-5.5 也有著出色的表現。在衡量模型橫跨 44 種職業知識工作能力的 GDPval 評測中,GPT-5.5 獲勝或打平比例達 84.9%,GPT-5.4 為 83.0%,Claude Opus 4.7 為 80.3%,Gemini 3.1 Pro 僅 67.3%。在 OSWorld-Verified(測試模型能否自主操作真實電腦環境)上,GPT-5.5 達到 78.7%,GPT-5.4 為 75.0%,Claude Opus 4.7 為 78.0%。在 Tau2-bench Telecom(測試複雜客服工作流)上,GPT-5.5 在無提示詞調整的情況下達到 98.0%,GPT-5.4 為 92.8%,差距相當明顯。在其他專項評測上,GPT-5.5 在 FinanceAgent v1.1 達到 60.0%,內部投行建模任務達到 88.5%,OfficeQA Pro 達到 54.1%(Claude Opus 4.7 為 43.6%,Gemini 3.1 Pro 僅為 18.1%)。在 BixBench(圍繞真實生物資訊學和資料分析設計)上,GPT-5.5 達到 80.5%,GPT-5.4 為 74.0%,在已發佈分數的模型中排名第一。在 GeneBench(測試遺傳學和定量生物學的多階段資料分析)上,GPT-5.5 達到 25.0%,GPT-5.4 為 19.0%,Pro 版本達到 33.2%。這些任務通常對應科學專家數天的工作量。OpenAI 內部有超過 85% 的員工每周使用 Codex,覆蓋軟體工程、財務、傳播、市場、資料科學和產品管理等部門。財務團隊用 GPT-5.5 審查了 24771 份 K-1 稅務檔案,共計 71637 頁,最終比上一年提前兩周完成。傳播團隊打造了一套自動化 Slack 機器人,負責處理低風險請求自動處理,市場團隊的一名員工則用它自動生成每周業務報告,每周節省 5 到 10 小時。此外,GPT-5.5 的一大亮點還在於推理基礎設施的協同升級。GPT-5.5 與 NVIDIA GB200 和 GB300 NVL72 系統聯合設計和訓練。其中一項關鍵改進是負載平衡和分區策略,Codex 分析了數周的生產流量資料,編寫了自訂啟髮式演算法來動態最佳化分區和負載平衡,最終將 token 生成速度提升了超過 20%。OpenAI 還指出,GPT-5.5 本身也參與了改進自身推理基礎設施的過程。GPT-5.5 即日起向 ChatGPT Plus、Pro、Business、Enterprise 使用者開放,Codex 支援最高 400K 上下文窗口,並提供 1.5 倍速的 Fast 模式(費用為標準價格的 2.5 倍)。GPT-5.5 Pro 則面向 ChatGPT 的 Pro、Business 和 Enterprise 使用者推出。API 版本即將上線,標準定價為每百萬輸入 token 5 美元、每百萬輸出 token 30 美元,上下文窗口為 1M token。批次處理和彈性定價為標準價格的一半,優先處理模式為標準價格的 2.5 倍。GPT-5.5 Pro 的 API 定價為每百萬輸入 token 30 美元、每百萬輸出 token 180 美元。OpenAI 表示,由於 token 效率的提升,大多數使用者的實際使用成本不會有明顯增加。閉口不提 Claude Opus 4.7,卻句句都在內涵。OpenAI 要做 AI 時代的超級入口沒有那一款模型能收穫一邊倒的評價,GPT-5.5 同樣如此。網友 @chetaslua 用一條提示詞在 Codex 中生成了一個帶有風效應物理引擎的完整網站,物理互動和介面設計一併到位,感嘆「這是我第一次覺得 ChatGPT 可以成為解決一切問題的首選 AI 工具」。網友 @petergostev 讓模型生成了一個包含倫敦地標和季節變化的玩具鐵路場景,與 GPT-5.4 的輸出對比後,他的結論是「GPT-5.5 更有野心、一致性更強,錯誤更少」,並在更複雜的應用遷移任務中讓模型連續工作數小時,沒有出現卡殼。當然,吐槽的聲音同樣存在。網友 @arrakis_ai 發現,GPT-5.5 在遇到複雜佈局時有時會直接生成一張圖片了事,處理圖示需求時會從頭硬寫 SVG 而不呼叫現成庫,同時頻繁暫停追問使用者,執行力反而不如從前果斷。文筆方面,我的個人體驗也有類似感受。GPT-5.5 確實比前代更會組織語言了,至少已經能說點人話,但依然有一股怪味:「我就在這裡,不躲,不藏,不繞,不逃, 穩穩地接住你 」。並且,不少網友也注意到,OpenAI 在基準測試榜單上也動了些行銷的心思。網友 Haider 認為,GPT-5.5 和 Mythos 的差距沒有預想的那麼懸殊,而 Mythos 定價是 GPT-5.5 的兩倍,且不公開發售。他的判斷是,下一代 GPT 趕上 Mythos 應該問題不大。據外媒 Techcrunch 報導,面對記者關於「GPT-5.5 是否具備類似 Mythos 能力」的刺探時,OpenAI 技術人員 Mia Glaese 給出了一個滴水不漏卻暗藏鋒芒的回答:「我們在網路安全方面有著長期且強有力的戰略,並且已經完善了一套持久的、安全推出模型的方法。」話外之音已經十分明朗:單一的強大模型終究只是過客。真到了拼數字防禦和企業級落地的深水區,OpenAI 的生態壁壘,才是 B 端客戶唯一穩妥的安全牌。而隨著 GPT-5.5 的登場,OpenAI 的野心已經足夠清晰:他們不再滿足於做一個聰明的聊天機器人,而是要親手打造一個吞噬一切工作流的「AI 超級應用(Super app)」。在接受外媒採訪時,OpenAI 總裁 Greg Brockman 用了一個詞「自主性(Agentic)」來形容這次模型的進步跨越。與前代模型 GPT-5.4 版本相比,GPT-5.5 消耗的 Token 更少,但思考速度更快、邏輯更清晰,開始展現出主動解決複雜問題的能力。這正是邁向超級應用的堅實底座。奧特曼今晚異常興奮,還更換頭像了所謂超級應用,便是將 ChatGPT、Codex 與 AI 瀏覽器深度融合為統一服務。想像未來的工作流:人們不必再在瀏覽器、程式碼編輯器、資料分析工具之間反覆切換。只需對著這個超級應用下達一個宏觀指令,GPT-5.5 就能自主在後台打開網頁蒐集資料、編寫爬蟲程式碼、清洗資料,最終直接交付一份完整的分析報告。當然,猶如 Claude 與 Claude Code 的強繫結,OpenAI 也意在替 Codex 的增長勢頭加一把火。最近,奧特曼表示,Codex 活躍使用者在突破 300 萬不到兩周後便直逼 400 萬大關,OpenAI 隨之重設速率限制,以「量大管飽」的姿態收割開發者生態。一方面,憑藉 GPT-5.5 與 GPT-Image-2 的強勢表現,正面回擊了 Anthropic 在估值預期上的壓力;另一方面,則利用 Codex 的生態粘性緊鎖開發者陣地,穩步構築起橫跨 C 端消費與 B 端企業級服務的完整服務體系。攻守之勢異也,今年以來被詬病掉隊的 OpenAI,終於重新找回兩年前的進攻節奏,並將精力放在了踏踏實實打磨產品上。 (APPSO)
Anthropic “王牌”Claude Code原始碼洩露 國產AI程式設計工具迎來機遇
2026年3月31日,一場因打包失誤引發的“意外開源”,讓Anthropic引以為傲的AI程式設計工具Claude Code的51.2萬行核心程式碼在全球開發者社群中瞬間擴散。這不是一次駭客攻擊,而是人為發佈錯誤——偵錯用的.map檔案被一同打包進npm包,暴露了完整架構與功能邏輯。短短數小時內,GitHub上湧現大量鏡像倉庫;次日,Anthropic為阻止擴散發出下架請求,卻因操作失誤誤刪約8100個倉庫,引發使用者強烈不滿。這場戲劇性的洩露事件,恰逢Anthropic籌備IPO的關鍵期,不僅重創其“安全標竿”形象,更意外地為全球AI開發工具的技術平權撕開了一道口子。▍戲劇性洩露:從低級失誤到 “自殺式” 下架這場原始碼洩露的開端,是一個幾乎所有開發者都熟悉的低級錯誤。2026年3月31日14 時,Anthropic 在 npm 倉庫發佈@anthropic-ai/claude-code v2.1.88版本,卻意外將包含完整原始碼的 59.8MB 偵錯用 cli.js.map 檔案打包其中。Web3 安全公司 FuzzLand 實習研究員Chaofan Shou(@Fried_rice在16時30分左右率先發現並披露了這一漏洞,檔案中的sourcesContent欄位直接包含了未經混淆的完整 TypeScript 原始碼,可直接還原 Claude Code 的全部核心邏輯。消息在開發者社區如野火般蔓延,數小時內GitHub上出現大量鏡像倉庫,星標數量迅速破千。更具諷刺意味的是,這已是Anthropic在13個月內第二次因同類source map問題導致原始碼洩露,暴露了其CI/CD流程存在嚴重漏洞,且未從歷史錯誤中吸取教訓。事件的戲劇性在4 月1日(愚人節)達到高潮。Anthropic為阻止程式碼擴散向 GitHub發出下架請求,卻因範圍判斷失誤,誤刪了約8100倉庫,其中包括自身開放原始碼專案的正常分支,引發全球開發者強烈不滿。Claude Code負責人鮑裡斯・切爾尼隨後緊急承認誤操作,撤回大部分下架請求,僅保留對1個倉庫及96個分支的處理,GitHub也已恢復多數受影響倉庫的存取權。一位不願具名的網際網路大廠技術專家對此評論道:“嚴謹地說,原始碼被洩漏的這種情況,沒有許可證來授權如何使用、修改、再分發的,不應該說是‘開源’,大概相當於說錢丟在路邊不算是‘功德’。” 這句評論精準點出了此次事件的本質 —— 一場由人為失誤導致的 “被動開源”,而非 Anthropic 主動開放技術的善舉。▍技術平權:從閉源壟斷到生態爆發儘管此次洩露源於失誤,卻意外成為AI領域的技術民主化催化劑。快思慢想研究院院長田豐告訴《科創板日報》記者:“2026 年 Claude Code 原始碼洩露事件,即是AI領域里程碑式危機,又是行業變革催化劑。51.2 萬行核心程式碼的意外公開,直接導致技術壁壘崩塌與開源生態爆發。”這場 “意外開源” 的直接成果,是韓國開發者Sigrid Jin的clean-room項目 ——Claw-Code。該項目採用 “淨室重寫” 原則,完全不接觸、不參考原始原始碼,僅根據對產品功能的外部觀察,從零重新實現一遍,2小時內獲5萬星標,目前已超10萬星標、9萬fork,更催生了多語言重寫版本。田豐指出,這標誌著閉源壟斷模式受重創,技術普惠加速,行業競爭核心從‘程式碼保密’轉向模型質量、生態整合與安全治理。對全球 AI 開發者而言,洩露程式碼提供了 “工程教科書” 級參考。在田豐看來,多 Agent 協作、超長上下文管理及六級權限沙箱等設計,已助力某國產團隊程式碼生成精準率提升 40%。這些技術細節此前被 Anthropic 視為核心商業機密,如今卻成為全球開發者的 “免費午餐”,大幅降低了 AI Agent 工程化門檻,加速了開發者生態競爭,助力中小團隊快速追趕。此次洩露還意外推動了AI開發工具領域的技術平權。田豐分析道:“Anthropic‘安全標竿’形象因兩次重大洩露徹底瓦解,警示全行業:安全漏洞將引發系統性信任危機。” 這一事件讓全球企業客戶開始重新審視對單一閉源工具的依賴風險,為技術自主可控的國產工具創造了市場窗口。▍國產AI程式設計工具:借鑑而非複製,創新而非跟隨對國產大模型與 AI 程式設計工具而言,此次洩露堪稱 “史詩級” 的技術補課與彎道超車機會。田豐認為:“機遇與挑戰並存,關鍵在於如何把握。”在技術層面,洩露程式碼為國產團隊提供了直接學習全球頂尖AI程式設計工具架構的機會。此前,國內AI程式設計工具在自主Agent、安全沙箱等領域與海外頭部產品存在差距,而Claude Code原始碼提供了可直接參考的工程方案,包括動態提示詞系統(分層快取省成本)、YOLO安全分類器(防誤刪)、Auto Dream記憶機制(後台整理不佔 token)及44個功能開關等核心元件。國內團隊無需再重複試錯,可直接基於現有架構最佳化迭代,快速推出具備競爭力的產品,實現 “彎道超車”。在市場層面,Anthropic的信任危機為國產工具打開了窗口。復旦大學復旦大學計算與智能創新學院一位人士指出:“企業客戶對資料主權、本地化部署的需求激增,國產工具可借勢強化安全可控與國產晶片適配性,在合規與信任上建立差異化優勢。”他指出,2025年底Claude曾對中資斷供,大量國內產品依賴Claude核心被迫緊急換模型、損失使用者。現在,國產團隊有能力完全自研程式設計agent架構,後端可自由切換國產模型(DeepSeek、Qwen、Seed、文心等),實現AI開發工具自主可控,不再被海外 “卡脖子”。田豐則特別強調,此次Claude Code原始碼提洩露,對於國內大模型企業的核心在於 “借鑑而非複製,創新而非跟隨”。他提出三點建議:一是差異化功能突破,如融合中文環境最佳化、國產IDE整合、本土程式碼規範檢查;二是安全能力升維,打造更嚴苛的發佈管控與透明審計機制,將安全作為核心賣點;三是生態突圍,聯合雲廠商建構託管服務,發展本土外掛生態。同時,他也警示必須警惕法律風險,避免直接使用洩露程式碼,而應通過clean-room重寫實現技術遷移。AI大模型業內普遍認為,這場 “意外開源” 雖源於失誤,卻加速了AI開發工具的技術平權。“未來競爭焦點將轉向資料積累、工作流整合深度及品牌信任,國產工具唯有從‘模仿’轉向‘價值創新’,才能把握技術民主化浪潮,建構自主生態系統。國產玩家需以安全為盾、創新為劍,在行業重構中搶佔制高點。” (財聯社)
突發!Claude Code開源,全網瘋傳
實習生扒出51萬行原始碼,GitHub已瘋傳。Claude Code“開源”了?智東西3月31日報導,剛剛,Anthropic的Claude Code在打包發佈時誤將source map檔案(.map)捆綁進了npm包,導致約1900個TypeScript檔案以及超過51.2萬行程式碼遭洩露。這件事的發現者是區塊鏈基礎設施公司Solayer的實習生Chaofan Shou,他第一個在X上發帖並直接給出了R2儲存桶的src.zip下載連結。用簡單的話解釋就是,Source map本來是給開發者偵錯用的“還原地圖”,它能把壓縮後的JS程式碼對應回原始TypeScript原始碼。結果Anthropic打包npm包時,不小心把.map檔案也塞了進去,而且地圖裡直接寫著他們Cloudflare R2儲存桶的公開地址。於是任何人只要下載這個npm包,打開.map檔案,就能順著地址下載到完整的、未混淆的TypeScript原始碼檔案,而這些TypeScript檔案就是Claude Code軟體的完整原始碼。目前,Anthropic已經迅速更新了npm包,移除了source map,但社區已經有人把原始碼鏡像到了GitHub中,並且獲得了超2萬顆星:https://github.com/instructkr/claude-code還有網友已經梳理出了Claude Code的運作邏輯,並行布了完整的“說明書”:https://www.mintlify.com/VineeTagarwaL-code/claude-code/guides/authentication那這約1900個TypeScript原始碼檔案,到底是什麼呢?簡單來說,這些檔案就是Claude Code客戶端工具的實現細節,包括它怎麼架構、用那些工具、支援那些命令、怎麼和IDE互動、怎麼管理記憶,以及一些還沒上線的功能,但不包含Claude大模型本身的權重、訓練資料、伺服器端程式碼或使用者敏感資訊。具體內容主要包括以下部分:1、核心架構和引擎QueryEngine(查詢引擎):這是整個工具的大腦,負責接收使用者指令、拆解任務、呼叫Claude模型、處理流式輸出、做快取、協調多步操作等。多Agent協作系統(swarms):讓多個AI Agent一起分工合作完成複雜任務。Memory記憶系統:將之前的對話、檔案內容、上下文持久化保存下來,方便長期使用。IDE Bridge:工具如何和VS Code、JetBrains等編輯器雙向通訊(包括使用 JWT 認證機制)。2、內建工具:這些工具讓Claude Code能真正“動手”幫你操作電腦、寫程式碼、搜尋資訊,而不是只聊天。3、命令系統:4、技術堆疊5、關鍵檔案QueryEngine.ts(約46K行):LLM API 呼叫的核心引擎,包括處理流式響應、工具呼叫循環、思考模式、重試邏輯和token計數等。Tool.ts(約29K行):定義所有工具的基本類型和介面,即輸入模式、權限模型和進度狀態類型。commands.ts(約25K行):管理所有斜槓命令的註冊和執行,使用條件匯入為每個環境載入不同的命令集。main.tsx:基於Commander.js的CLI解析器和React/Ink渲染器初始化。啟動時,它會優先處理MDM設定、鑰匙串預取和GrowthBook初始化,以加快啟動速度。6、值得關注的設計模式平行預取:通過在開始繁重的模組評估之前平行預取MDM設定、鑰匙串讀取和API預連接來最佳化啟動時間。懶載入:大型模組(OpenTelemetry、gRPC、分析和一些功能門控子系統)通過動態方式延遲執行,import()直到實際需要時才執行。智能體群:子Agent通過生成AgentTool,並coordinator/處理多代理編排。TeamCreateTool支援團隊級平行工作。技能系統:可重用工作流程中定義的元件skills/通過該元件執行SkillTool,使用者可以加入自訂技能。外掛架構:內建外掛和第三方外掛均通過plugins/子系統載入。7、主要未發佈特性標誌及功能:KAIROS:自主守護模式。支援後台持續運行、後台會話、自我記憶整合,讓Claude Code成為一個24×7線上的助手,能在無人值守時自主工作和總結。PROACTIVE:主動模式。Claude Code能主動監控項目、提出建議、提前處理任務,增強AI的自主性和前瞻性。VOICE_MODE:語音互動模式。支援通過語音輸入指令,目前部分命令可能已有限支援,但完整整合仍未發佈。DAEMON:背景執行/守護模式。將工具轉為常駐後台處理程序,支援長期任務執行,而無需一直保持終端窗口打開。BRIDGE_MODE:與IDE的深度橋接模式增強版本,可能包括更先進的雙向通訊或認證邏輯。BUDDY系統:一個趣味虛擬寵物系統,包含約18種不同物種,有鴨子、鵝、貓、龍、章魚、貓頭鷹、企鵝、烏龜、蝸牛、幽靈、軸足動物、卡皮拉、仙人掌、機器人、兔子、蘑菇等。有稀有度、閃光變體、即時狀態等玩法,是個隱藏的彩蛋式功能。但要注意,這並不是Anthropic主動開源,Anthropic依然對原始碼擁有版權。開發者們可以看程式碼、學架構,但不可以拿去修改後重新發佈成自己的工具或做成產品。否則,Anthropic有權通過DMCA(版權刪除通知)讓GitHub刪除相關項目,或者追究法律責任。 (智東西)
Codex不打算讓Claude Code好過
2月6日,OpenAI總裁Greg Brockman在X上公開發了一條面向全公司工程團隊的帖子,設了一個deadline:到3月31日,任何技術任務,工程師的第一工具應該是agent,而不是編輯器或終端。這是OpenAI對自己下的動員令。如果只看這句話,你可能會覺得又是一條矽谷式的願景聲明。但接下來六周發生的事情表明,Brockman不是在喊口號。OpenAI的Coding Agent平台Codex,正在經歷一輪罕見的產品衝刺,密度之高,節奏之快,甚至讓一些長期關注AI編碼工具的開發者開始重新審視自己的工具鏈。與此同時,Codex在程式設計師群體中的熱度和口碑也在肉眼可見地上升。一切動作都指向“狙擊”Anthropic 如日中天的Claude Code。六周的瘋狂迭代拉一下時間線就能感受到這個節奏。2月2日,Codex桌面App發佈(macOS),OpenAI同時宣佈向ChatGPT免費和Go使用者開放Codex,所有付費使用者的速率限制翻倍。2月5日,GPT-5.3-Codex發佈,OpenAI稱它為"第一個幫助創造了自身的模型"。同一天,Anthropic發佈Claude Opus 4.6。2月12日,Codex-Spark發佈,與AI推理硬體公司Cerebras合作,推理速度超過每秒1000 tokens。OpenAI的說法是,“當模型能力越來越強,互動速度就成了明確的瓶頸。”2月14日,OpenClaw創始人Peter Steinberger宣佈加入OpenAI。據Pragmatic Engineer報導,Steinberger用Codex編寫了OpenClaw的全部程式碼,偏好長時間運行的agentic loop。Sam Altman在X上稱他為“天才”,說他將“推動下一代personal agents”。3月4日,Codex桌面App登陸Windows。3月5日,GPT-5.4發佈,是OpenAI第一個同時具備reasoning、coding和原生computer use能力的通用模型,在Codex和API中支援100萬token上下文。3月6日,Codex Security進入research preview。這是OpenAI推出的應用安全代理,前身為內測階段的Aardvark,能夠分析程式碼倉庫、建構項目級威脅模型、在沙盒中驗證漏洞並提出修復建議。過去30天的beta測試中,它掃描了超過120萬次commits,發現792個critical等級漏洞和超過10000個高危問題,覆蓋OpenSSH、GnuTLS、Chromium等重量級開放原始碼專案。誤報率降低超過50%,噪音降低84%。使用資料也在同步攀升。Sam Altman在X上確認,Codex的周活使用者自年初以來增長超過三倍;Codex團隊負責人Thibault Sottiaux(Tibo)告訴Pragmatic Engineer的Gergely Orosz,1月以來它的使用量增長了5倍,周活開發者超過100萬。Tibo還在播客中提到,Super Bowl周日播出的Codex廣告讓系統幾乎立即承受了巨大負載。六周,七次重大產品動作,這成了OpenAI在產品上最激進的衝刺之一。要理解這個節奏,一方面要看供給側的變化。GPT-5系列模型的agent能力在過去幾個月出現了質的飛躍,從上下文窗口、工具呼叫到長時間自主執行,模型本身的能力到了一個可以支撐Coding Agent這個產品形態的臨界點。另一方面,需求側的訊號同樣強烈。據SemiAnalysis報導,Anthropic的Claude Code已經做出25億美元的年化收入,佔其企業收入的一半以上。Claude Code用真金白銀證明了Coding Agent可以成為AI公司的核心收入引擎。對於估值據報已達數千億美元的OpenAI來說,放棄這個賽道不是一個現實的選項。根據SemiAnalysis的預測AnthropicARR增速一度超過OpenAI時間點上的貼身肉搏也值得注意。GPT-5.3-Codex和Claude Opus 4.6在2月5日同一天發佈。Codex Security和Claude Code Security幾乎同期推出。這種節奏本身就是訊號,兩家公司正在把Coding Agent平台視為正面戰場。開發者開始從Claude Code的單一模式變成混合模式在很長一段時間,Anthropic旗下的Claude Code看起來似乎已經沒有了對手,使用者對它的依賴變得越來越重。而OpenAI顯然不想讓Anthropic 這麼舒服。在Codex的一通激進衝刺後,開發者社區的反應也開始發生一些變化。過去一個月,Reddit和Hacker News上關於Codex和Claude Code的討論,出現頻率最高的詞不是更好或替代,而是stacking。也就是說,越來越多的開發者不是在兩者之間選擇,而是同時使用。Calvin French-Owen是一個典型案例。他是Segment聯合創始人,曾在OpenAI參與Codex web產品的發佈,同時也是Claude Code的深度使用者。他在今年2月寫的一篇部落格裡說,自己選擇工具的核心標準是“我有多少時間,以及我想讓它多自主地跑”。他的日常工作流是用Claude Code做規劃、編排終端和管理git操作,然後切到Codex做實際編碼。他說Opus在跨上下文窗口的工作中效率更高,會同時啟動多個子代理平行探索程式碼庫;而Codex在長時間自主編碼任務上更穩定。Reddit上也出現了更具體的分工模式。有開發者詳細描述了一個五段式workflow,先讓Claude Code出計畫,再讓Codex review計畫,然後由Claude實施,最後交給Codex做code review和QA迭代。還有人直接把Claude Code和Codex串成了一個CLI bridge,因為手動在兩者之間複製貼上太累了。一篇社區分析總結了500多條Reddit評論後的結論,Claude Code在一組小樣本盲測中勝率達到67%,質量更高;但Codex 20美元的套餐能編碼一整天不斷,而Claude Code同價位十幾個prompt就用完了。“Claude Code質量更高但用不完,Codex稍弱但全天能用”,這是2026年3月開發者社區最真實的共識。在Cursor官方的benchmark中,GPT系列整體領先其他模型。開發者社區還流傳著一個比喻來描述兩者的氣質差異,Claude像美國人,適合做充滿創造力的探索和頭腦風暴,Codex像德國人,代表極致的效率和專注執行。“它就像一條咬住骨頭不放的狗,非常固執,會一直嘗試直到解決問題。”當然也有反面聲音。Hacker News上有開發者說Codex對自己來說“每一項都比Claude Code差”,尤其是code review會製造看似合理但實際不存在的問題,他最後只把Codex用來覆核Claude的產出。但大方向已經很明確了,社區討論正在從那個更好就用那個,變成兩個都用,各佔一個工位。比的不再是benchmark,是誰是更實用的產品只看模型benchmark,你不太容易理解Codex為什麼起勢。在SWE-Bench這類編碼評測上,Claude Opus 4.6仍然領先。真正讓Codex拉開差異的地方在別處,OpenAI正在圍繞它建構一整套工程系統。Orosz今年2月發表了一篇對Codex團隊的深度報導。其中最引人注目的事實是,Codex超過90%的程式碼是由Codex自己編寫的。Anthropic方面也有類似的說法,Claude Code的建立者Boris Cherny告訴Orosz,Claude Code的資料大致相當。當然,這裡的90%需要打個折扣理解,在一個成熟項目中,樣板程式碼、測試用例、常規重構佔了大量行數,核心架構決策仍然由人來做。但兩家AI實驗室都在用自己的coding 工具來編寫自己的coding 工具,這種自舉本身就說明了這些工具已經深度嵌入了日常工程流程。Codex 的基本工作原理Codex團隊在工程組織層面走得更遠。Orosz的報導描述了一種新的工作方式,Codex團隊的典型工程師同時運行4到8個平行agent,分別處理feature開發、code review、安全審計、程式碼庫理解、bug修復等任務。工程師的角色正在從寫程式碼的人變成管理agent的人。技術選型上,Codex CLI選擇了Rust(Claude Code使用的是TypeScript)。團隊負責人Tibo給出的理由不僅是性能和正確性,還有工程文化,選擇Rust是為了給團隊設定一個高工程標準,同時減少對npm依賴生態的依賴。他們甚至招募了Rust終端UI庫Ratatui的維護者全職加入團隊。更值得關注的是分層程式碼審查機制。Codex團隊訓練了一個定製的code review模型,據Tibo說約9/10的評論能指出有效問題。審查分兩層,非關鍵程式碼在AI review後可以直接merge,核心agent程式碼和開源元件仍然要求強制人工審查。這套機制的意義在於,審查本身開始分層了。還有兩個細節能說明Codex正在從工具走向系統。Codex可以運行自己的完整測試套件來測試自身;團隊還設定了夜間巡檢,讓Codex自動掃描程式碼庫並生成待審修復建議,工程師每天早上進公司時就有一批修復等著review。一家名為Wonderful的AI開發公司的首席架構師在今年3月寫了一篇文章,描述了他們四個月前禁止手動coding後的經驗。他對兩個工具的定位是,Codex是坐在房間後面戴耳機的工程師,默默讀完你整個程式碼庫15分鐘才寫第一行程式碼,Claude則更有產品感,更擅長判斷什麼感覺對。他們把Codex用於低延遲系統工作、即時語音管線、性能敏感程式碼,Claude則用於UI和前端。從coding工具到Agent平台拉遠來看,Codex六周衝刺的方向指向一個更大的野心。Peter Steinberger的加入是一個人事訊號。他日常同時平行5到10個agent,加入OpenAI後的方向是下一代personal agents,不是coding工具。OpenAI正在用Codex作為agent戰略的入口。Codex Security則是另一個方向的延伸。當Codex從幫你寫程式碼走向幫你審計安全,它的定位就已經變了。GPT-5.4進一步加速了這個轉變。作為OpenAI第一個具備原生computer use能力的通用模型,它在Codex中不僅能寫程式碼,還能操作電腦、跨應用執行工作流。配合正在成型的外掛/skills生態系統和企業級權限管理,Codex的輪廓越來越像一個AI原生的開發平台。Codex團隊在Every的播客中透露了他們眼中的下一個瓶頸,就是程式碼審查。模型生成程式碼的速度已經遠超人類review的速度,驗證產出的正確性成了最緊迫的問題。他們已經在嘗試讓模型通過重現使用者操作路徑來“證明”修復有效,而不是讓人類逐行讀程式碼。這些野心和Claude Code已經越來越清楚的發展方向有很多重合,在從Claude Code那裡迅速搶走了一些使用者和使用場景之後,Codex的勢頭正在起來。回到Greg Brockman 2月6日的那條帖子。他設的deadline是3月31日,目前距離deadline還有兩周多,而從過去六周的節奏來看,Codex的衝刺還遠沒有結束。OpenAI把曾經在模型上呈現出的狠勁兒和卷王的氣質,都放到了Codex上,接下來它和Claude code之間短兵相接的故事,會更精彩了。 (硅星人Pro)
Agentic AI時代,“老大”OpenAI成了“老登”?
ChatGPT的發佈讓OpenAI一戰封神,所有人都覺得這家AI公司會一直贏下去。然而在AI程式設計這條賽道上,佔據先機的卻並非OpenAI。2025年2月份,競爭對手Anthropic低調發佈了Claude Code。這款能夠直接操作電腦、自主完成程式設計任務的AI智能體,在短短幾個月內為Anthropic帶來了超過25億美元的年化收入。與之相比,OpenAI的同類產品Codex,同期年化收入約為10億美元。雙方的差距不止一倍。更令OpenAI尷尬的是,Anthropic的核心創始團隊,正是幾年前從OpenAI離開的那批人。OpenAI位於舊金山Mission Bay的新總部大樓是一棟現代化的玻璃幕牆建築。接待處擺放著介紹公司發展歷程的宣傳資料,樓梯間的牆壁上掛滿了一系列里程碑事件的紀念海報:GPT系列、DALL·E、ChatGPT——每一幅都記錄著這家公司過去幾年的高光時刻。但其中沒有AI程式設計。01. 從Codex到Copilot,OpenAI錯失的先發優勢OpenAI其實很早就開始了AI程式設計方向的探索。2021年,奧特曼和OpenAI聯合創始人格雷格·布羅克曼(Greg Brockman)還在舊金山Mission區的老辦公室,向《連線》雜誌記者展示了一個叫Codex的項目。它是GPT-3的一個分支版本,在GitHub的數十億行開放原始碼上訓練而成。使用者輸入一句自然語言描述,它就能生成一段相應的程式碼。“它可以代表你在電腦世界裡執行操作,”布羅克曼當時說,“你擁有一個可以執行命令的系統。”但這個早期的技術積累,最終沒有轉化為產品層面的持續投入。Codex被微軟看中了。這家軟體公司當時正在開發一個叫GitHub Copilot的產品,這是一款能嵌入程式設計師編輯器、提供程式碼補全功能的工具。一位早期加入OpenAI的員工回憶,當時的Codex“除了自動補全之外做不了太多事情”,但微軟已經將其視為未來產品的重要方向。2022年6月,GitHub Copilot正式發佈,幾個月內就吸引了數十萬使用者。正常情況下,OpenAI應該會加大對這一方向的投入。但接下來發生的事情,讓後來負責Codex產品的團隊感到遺憾。最初的Codex團隊被解散了。一部分成員轉去做DALL·E 2圖像生成項目,一部分去參與GPT-4的訓練。當時公司的首要目標是實現AGI,AI程式設計沒有被視為需要獨立投入的領域。一位前團隊成員說,之後的幾年裡,OpenAI沒有專門的團隊在開發AI程式設計產品。“當時的感覺是,這個領域已經被GitHub Copilot覆蓋了,”畢竟微軟會繼續使用OpenAI的模型來迭代這個產品,不需要OpenAI自己操心。幾個月後,ChatGPT上線,兩個月內使用者數突破1億。OpenAI完全被這次成功轉移了注意力。接下來的2023年和2024年,OpenAI把主要資源投入到多模態模型的研發上,致力於讓AI理解圖像、視訊、音訊,像人一樣操作游標和鍵盤。當時Midjourney等產品正在興起,行業普遍認為大語言模型需要具備處理多模態資訊的能力,才能邁向更高層次的智能。這個方向的選擇本身沒有問題。只是在這段時間裡,AI程式設計這條賽道正在悄然生長,而OpenAI的注意力並不在這裡。02. 競爭對手Anthropic突圍Coding賽道Anthropic選擇了另一條發展路徑。這家公司也做多模態模型和聊天機器人,但有一個方向始終沒有放鬆:程式設計能力。布羅克曼後來在一個播客節目裡談到,Anthropic“從早期就非常專注在程式設計上”。他們不僅用演算法競賽題目訓練模型,還往訓練資料裡加入了真實項目中那些結構混亂的程式碼,就像普通開發者日常面對的那種。“這是我們沒有及時意識到重要性的地方,”他說。2024年6月,Anthropic發佈Claude Sonnet 3.5。很多開發者試用後發現,這個模型的程式設計能力確實突出。一家叫Cursor的初創公司最先受益於此。幾個二十多歲的年輕人做了一款產品:在程式碼編輯器裡用自然語言提需求,AI直接幫忙修改程式碼。他們接入Sonnet 3.5後,使用者量開始快速增長。據熟悉Cursor的人士透露,幾個月內,Anthropic就開始內部測試自己的獨立版本了,也就是後來的Claude Code。Cursor火起來之後,OpenAI曾試圖收購這家公司,但遭到拒絕。對方認為程式設計賽道潛力巨大,希望保持獨立。收購未能達成,OpenAI內部也開始有團隊嘗試AI程式設計方向。2024年底,幾個小型團隊陸續啟動。一個是安德烈·米申科(Andrey Mishchenko)和蒂博·索蒂奧(Thibault Sottiaux)帶領的團隊,這兩人分別是Codex的研究負責人和前GoogleDeepMind研究員。他們最初的動機比較務實:用AI程式設計來加速AI研究,讓AI自動管理訓練任務、監控GPU叢集,研究員就能騰出時間做更有創造性的工作。另一個是亞歷山大·恩比里科斯(Alexander Embiricos)帶領的團隊,他之前負責多模態智能體的研發。他做了一個叫Jam的演示項目,在公司內部引起了不少關注。Jam和2021年的Codex有本質區別。Codex是輸出程式碼讓人來執行,Jam則可以直接進入命令列,自己運行程式碼。恩比里科斯看著電腦螢幕上那個跟蹤Jam操作的自建頁面一遍遍自動更新,感到有些不可思議。“我以前一直以為多模態互動可能是實現AGI的路徑,也許我們以後就是整天和AI共享螢幕,”他說,“但後來逐漸意識到,讓模型以程式設計方式直接訪問電腦,可能是更有效的方向。”這幾個團隊磨合了幾個月後合併在一起。等OpenAI在2025年初完成o3(比o1更針對程式設計任務最佳化的模型)的訓練,他們終於有了建構產品的技術基礎。但這時,Claude Code已經準備公開發佈了。03. 收購受阻與內部衝刺,OpenAI的雙線應對2025年2月,Claude Code以“有限研究預覽”的形式首次亮相。5月,全面開放使用。這個產品和之前流行的“氛圍編碼”模式不同。氛圍編碼是人主導、AI輔助的程式設計模式,由人做決策,AI執行具體操作。而Claude Code可以直接在命令列工作,訪問使用者的所有檔案和應用程式,開發者可以把部分工作真正交給AI來完成。OpenAI也開始加快節奏。索蒂奧在3月組建了一個“衝刺團隊”,把內部幾個小組整合在一起,計畫在幾周內推出競品。與此同時,奧特曼開始尋找收購目標,他們看上了一家叫Windsurf的AI程式設計初創公司,報價30億美元。如果收購完成,產品、團隊、企業客戶都能快速補齊。但這筆交易被微軟擱置了數月。據《華爾街日報》報導,微軟希望獲得Windsurf的智慧財產權。這家雲巨頭從2021年起就用OpenAI的模型支撐著GitHub Copilot,每次財報電話會都會提及這個產品。但Cursor、Windsurf、Claude Code陸續出現後,GitHub Copilot的產品形態顯得有些過氣。此時OpenAI再推一個新的編碼產品,微軟的態度自然變得複雜。Windsurf的交易正趕上OpenAI和微軟重新談判合作協議。OpenAI希望從微軟那裡爭取更多自主權,不希望產品和算力資源被過度控制。這筆收購成了雙方博弈過程中的犧牲品。到7月,交易正式告吹。後來Google招攬了Windsurf的創始人,剩餘團隊則被另一家編碼初創公司Cognition收入麾下。“我本來挺希望做成這筆交易的,”奧特曼說,“但不是每一筆交易都能控制。”不過他提到,Codex團隊的表現讓他有些意外。談判那幾個月,索蒂奧和恩比里科斯一直在迭代產品,沒有停下來。到8月,OpenAI開始加速推進自己的產品。04. 從5%到40%:Codex猛追市場份額布羅克曼有一個自己設計的測試方法,叫“反向圖靈測試”。他多年前親自編寫了這套程序,規則是這樣的:兩台電腦前各坐一個人,每人螢幕上有兩個聊天窗口,一個連接著對面的人,一個連接著AI。目標是判斷那個窗口是AI,同時還得讓對方以為你才是AI。去年大部分時間,OpenAI最好的模型要完成這個遊戲的程式碼編寫,需要好幾個小時,中間還得有人一步步引導。到12月,Codex用GPT-5.2做引擎,一個結構清晰的提示詞輸入後,就能直接生成一個可運行的遊戲。感受到變化的不僅僅是布羅克曼。開發者社區裡開始頻繁討論AI程式設計智能體的能力提升,話題從矽谷擴散到更廣的範圍。一些沒有程式設計背景的人,也開始嘗試用這些工具做些簡單的軟體項目。Anthropic和OpenAI都在爭搶使用者。有開發者表示,自己每月支付200美元的Codex或Claude Code訂閱費,實際能用到價值1000多美元的服務。兩家公司都在用慷慨的用量限制把使用者往工作流裡引導,等人用習慣了,再按實際用量收費。從資料上看,OpenAI確實在縮小差距。2025年9月,Codex的使用量大約是Claude Code的5%。到2026年1月,這個比例上升到接近40%。Notion的聯合創始人西蒙·拉斯特(Simon Last)說,他和團隊在GPT-5.2發佈後從Claude Code切換到了Codex,主要原因是後者更穩定。“我發現Claude Code有時候會給出不精準的資訊,”他說,“它說自己正在處理任務,實際上並沒有進展。”在OpenAI負責Codex行為研究的凱蒂·施(Katy Shi)說,有些使用者覺得Codex的回應風格偏“干”,但越來越多人開始接受這種不刻意迎合的特點。“工程領域的工作,本來就需要能夠接受批評性反饋,不能因為表達方式直接就覺得被冒犯。”企業客戶也在逐步進入。OpenAI應用部門的CEO菲吉·西莫(Fidji Simo)稱:“ChatGPT已經成為AI領域的代表性產品,這在B2B市場是一個明顯優勢,多數企業傾向於使用員工已經熟悉的技術。”OpenAI銷售Codex的策略,主要是將其打包進ChatGPT的企業套件中一併提供。思科的總裁傑圖·帕特爾(Jeetu Patel)告訴員工,不用太在意使用Codex產生的費用,關鍵是要熟悉這個工具。有員工問他用了之後會不會失業,他的回答是:“不會,但不用一定會失業。不熟悉這些工具的人,慢慢會失去競爭力。”有開發者認為,OpenAI在B端市場的管道優勢正在發揮作用。不少公司已經採購了ChatGPT的企業版,在此基礎上增加一個Codex功能,決策成本並不高。也有分析指出,Codex最近的能力提升與GPT-5.2的推理能力最佳化直接相關。o系列模型採用的訓練方法,即讓模型在結果可驗證的程式設計任務中不斷試錯、獲得反饋,這對程式碼生成的質量有明顯幫助。程式設計本身就是一個反饋訊號明確的領域,程式碼要麼能運行要麼不能,這種特性對模型迭代很有利。05. 奧特曼的難題:既要速度,又怕失控AI程式設計智能體的影響已經不限於開發者社區。《華爾街日報》上個月將科技股1兆美元的拋售部分歸因於Claude Code,因為投資者擔心軟體本身的價值可能被壓縮。之後Anthropic宣佈,Claude Code可以對IBM那些運行COBOL語言的老系統進行現代化改造,IBM的股票遭遇了25年來最大單日跌幅。OpenAI也在加大投入。今年的超級碗廣告,他們投放的是Codex,而不是ChatGPT。在OpenAI總部,Codex的使用已經相當普遍。多位工程師提到,他們現在很少手寫程式碼,每天的工作主要是和Codex互動。一位參與了內部駭客馬拉松的工程師描述說,現場大約100人,用四小時時間通過Codex搭建一個可用的演示項目。不少項目既是用Codex開發的,目標也是為了讓工程師更好使用Codex。有的團隊做了個工具,把Slack消息自動彙總成周報,有的團隊用AI生成了一個內部服務的百科式指南。以前這些事情可能需要幾天才能完成,現在一個下午就能跑通流程。凱文·維爾(Kevin Weil)是前Instagram高管,目前負責OpenAI for Science部門,為研究人員開發AI產品。他說Codex現在會在夜間幫他處理一些項目,早上到公司檢查進度就行。這種做法已經成了他和幾百名同事的日常工作方式。OpenAI 2026年的目標之一是開發一個能夠自主進行AI研究的AI實習生。西莫表示,Codex最終會整合進ChatGPT和所有產品線,不僅是用來程式設計,而是協助處理各種任務。奧特曼說他想發佈一個通用版本的Codex,但對安全性還有些顧慮。1月底,他一個非技術背景的朋友請他幫忙安裝OpenClaw,但他沒有答應,認為“現在還不是時候”,那個智能體可能會誤刪重要檔案。但這件事過去幾周後,OpenAI就把OpenClaw的創作者招進了公司。不少開發者認為,Codex和Claude Code之間的差距確實在縮小,但也有機構對OpenAI的進度表示擔憂。一個叫Midas Project的非營利組織發佈報告稱,OpenAI在GPT-5.3-Codex上沒有完整披露網路安全風險,安全承諾的落實情況不夠透明。OpenAI的對齊負責人阿米莉亞·格拉澤(Amelia Glaese)否認為了推進Codex而犧牲安全,表示Midas對公司的承諾存在誤解。布羅克曼對AGI的進展保持樂觀,認為“項目正在按計畫推進”。但在不少矽谷工程師的印象裡,他一直是那種產品發佈前夜還在檢查程式碼庫細節的負責人。現在的狀況不太一樣了。布羅克曼面對的是幾十萬個AI智能體,在執行具體的任務和項目。他說這種新的工作方式“讓人感覺輕鬆了一些,因為以前確實需要記住很多細節”。但有時候,“你不太清楚那些事情具體是怎麼被解決的”。他說,這種變化會讓你“感覺對問題的感知不像以前那麼敏銳了”。 (騰訊科技)
Claude Code Security發布嚇壞資安產業市場陷入恐慌 資安股為何集體下挫?
日前,人工智慧新創公司Anthropic發布全新程式碼安全工具 Claude Code Security,主打能像資深資安人員一樣理解整個程式碼庫的邏輯與元件交互關係,而非僅比對已知漏洞模式,並自動生成具針對性的修補建議。消息公布後,資安相關族群出現短期震盪,部分龍頭公司股價走弱。追蹤資安產業的First Trust NASDAQ Cybersecurity ETF也出現連續數日回檔,引發市場討論:「AI是否對傳統資安產業形成威脅?」(相關新聞:Claude令市場陷入恐慌 全球百億美元市值一夕蒸發)但這個問題,真的那麼單純嗎?(First Tnust NASDAQ Cybersecurity ETF(CIBR))市場為何會出現壓力?Anthropic 在發布時指出,Claude Code Security 在測試階段已成功找出超過 500 個真實存在的程式碼漏洞,部分甚至是傳統資安工具長期未能偵測到的問題,市場可能將此視為潛在競爭訊號,進而調整資安類股的未來成長預期。從市場心理層面來看,生成式AI若能自動掃描漏洞:提供修補建議降低人工分析時間確實可能讓投資人產生聯想「這是否會削弱既有資安公司的價值?」然而,需要釐清的是目前Claude Code Security所聚焦的,是應用程式層級的程式碼分析與漏洞輔助修補。這屬於整體資安體系中的一個環節,而非完整的資安解決方案。資訊安全產業實際涵蓋範圍包括”防火牆與邊界安全”:端點安全(Endpoint Security)雲端安全架構零信任(Zero Trust)模型威脅偵測與回應(EDR / XDR)SOC安全營運中心身分與存取管理(IAM)流量分析與行為判讀勒索軟體防禦漏洞掃描只是其中一部分,因此,短期市場反應更可能來自於對未來競爭格局變化的預期調整,而非產業基本面立即發生根本性改變。在資本市場中,股價反映的是「預期」,不一定是「已發生的事實」。AI 的角色:把「想」變成「做」的輔助工具?正因如此,理解 AI 在資安中的真實角色,比跟隨市場情緒更為重要。將AI與資安視為對立關係,或許是一種過度簡化。在我的認知裡,AI 是一種輔助型工具,而非全能的決策者。它可以協助你整理知識、提升工作效率、協作文章撰寫,甚至幫你實現以前只停留在「想法」階段的事。舉個例子:假設你想打造一套自動語音報時系統,過去你可能因為技術門檻而難以起步,但現在透過 AI 的輔助,這個想法可以相對快速地被實現。目前市面上除了 Claude,也有 Gemini、ChatGPT 等多種 AI 工具,各有其擅長的應用場景。AI 真正的價值,在於降低實現門檻,讓更多人能將創意轉化為行動。換句話說:AI正在成為資安產業的加速器,而不是替代者。未來的競爭,可能不再是「AI公司 vs 資安公司」,而是「誰能更有效整合AI進入資安架構」,產業升級通常伴隨技術重組,而不是單向消滅。(除了Claude仍有許多AI可以做到圖片上列的事項例如Gemini、OpenAI...等)AI 越方便,你越需要守護自己的資訊安全AI 工具日益普及,使用便利性大幅提升,但隨之而來的資安風險也不容忽視。當你將 AI 工具安裝於電腦、整合進工作通訊軟體,或授予它存取你的檔案、照片等權限時,使用過程中的互動紀錄,通常會傳送至該服務商的伺服器進行處理。即便業者聲稱不長期保存資料或採用加密傳輸,資料在傳輸與處理過程中的風險仍然存在。建議大家在享受 AI 帶來的便利之餘,也建立清楚的使用界線:•避免將機密的工作文件、客戶資料輸入公開的 AI 服務•謹慎授權 AI 存取個人照片、通訊紀錄等敏感內容•定期檢視所使用工具的隱私權政策與資料處理方式AI 是幫助我們把不可能化為可能的存在,但在擁抱它的同時,守護屬於自己的數位邊界,同樣重要。因此,比起全面拒絕AI,更成熟的態度是:理解風險、設定界線、建立制度。**更多(分析、資產配置分享、財經閱讀筆記..等)歡迎至「ANSHI安實的沙龍」訂閱哦!※文章分享來自個人分析,不會給予該買或賣的評斷,純分享,也是一種自我紀錄。※投資理論沒有對錯,想法、策略只有適不適合自己,互相討論求進步(數據有誤,歡迎留言修正)。